智能论文笔记

Digital Gimbal: End-to-end Deep Image Stabilization with Learnable Exposure Times

Omer Dahary , Matan Jacoby , Alex M. Bronstein

分类：计算机视觉

2020-12-08

使用致动万向节的机械图像稳定使得能够捕获长曝光镜头而不会因相机运动而遭受模糊。然而，这些装置通常是物理上繁琐和昂贵的，限制了他们广泛的使用。在这项工作中，我们建议通过输入快速未稳定的相机的输入来数字化地模拟机械稳定的系统。在短曝光的长曝光和低SNR处开发运动模糊之间的折衷，我们通过聚集由未知运动相关的嘈杂短曝光框架来培训估计尖锐的高SNR图像的CNN。我们进一步建议以端到端的方式学习突发的曝光时间，从而平衡噪声和模糊穿过框架。我们展示了这种方法，通过传统的去掩盖单个图像或在合成和实际数据上去除固定曝光突发的传统方法的优势。

translated by 谷歌翻译

Multilingual Sequence-to-Sequence Models for Hebrew NLP

Matan Eyal , Hila Noga , Roee Aharoni , Idan Szpektor , Reut Tsarfaty

分类：自然语言处理

2022-12-19

Recent work attributes progress in NLP to large language models (LMs) with increased model size and large quantities of pretraining data. Despite this, current state-of-the-art LMs for Hebrew are both under-parameterized and under-trained compared to LMs in other languages. Additionally, previous work on pretrained Hebrew LMs focused on encoder-only models. While the encoder-only architecture is beneficial for classification tasks, it does not cater well for sub-word prediction tasks, such as Named Entity Recognition, when considering the morphologically rich nature of Hebrew. In this paper we argue that sequence-to-sequence generative architectures are more suitable for LLMs in the case of morphologically rich languages (MRLs) such as Hebrew. We demonstrate that by casting tasks in the Hebrew NLP pipeline as text-to-text tasks, we can leverage powerful multilingual, pretrained sequence-to-sequence models as mT5, eliminating the need for a specialized, morpheme-based, separately fine-tuned decoder. Using this approach, our experiments show substantial improvements over previously published results on existing Hebrew NLP benchmarks. These results suggest that multilingual sequence-to-sequence models present a promising building block for NLP for MRLs.

translated by 谷歌翻译

Fast Inference from Transformers via Speculative Decoding

Yaniv Leviathan , Matan Kalman , Yossi Matias

分类：机器学习 | 自然语言处理

2022-11-30

Inference from large autoregressive models like Transformers is slow - decoding K tokens takes K serial runs of the model. In this work we introduce speculative decoding - an algorithm to sample from autoregressive models faster without any changes to the outputs, by computing several tokens in parallel. At the heart of our approach lie the observations that (1) hard language-modeling tasks often include easier subtasks that can be approximated well by more efficient models, and (2) using speculative execution and a novel sampling method, we can make exact decoding from the large models faster, by running them in parallel on the outputs of the approximation models, potentially generating several tokens concurrently, and without changing the distribution. Our method supports existing off-the-shelf models without retraining or architecture changes. We demonstrate it on T5-XXL and show a 2X-3X acceleration compared to the standard T5X implementation, with identical outputs.

translated by 谷歌翻译

SinDDM: A Single Image Denoising Diffusion Model

Vladimir Kulikov , Shahar Yadin , Matan Kleiner , Tomer Michaeli

分类：计算机视觉 | 机器学习

2022-11-29

Denoising diffusion models (DDMs) have led to staggering performance leaps in image generation, editing and restoration. However, existing DDMs use very large datasets for training. Here, we introduce a framework for training a DDM on a single image. Our method, which we coin SinDDM, learns the internal statistics of the training image by using a multi-scale diffusion process. To drive the reverse diffusion process, we use a fully-convolutional light-weight denoiser, which is conditioned on both the noise level and the scale. This architecture allows generating samples of arbitrary dimensions, in a coarse-to-fine manner. As we illustrate, SinDDM generates diverse high-quality samples, and is applicable in a wide array of tasks, including style transfer and harmonization. Furthermore, it can be easily guided by external supervision. Particularly, we demonstrate text-guided generation from a single image using a pre-trained CLIP model.

translated by 谷歌翻译

Determining HEDP Foams' Quality with Multi-View Deep Learning Classification

Nadav Schneider , Matan Rusanovsky , Raz Gvishi , Gal Oren

分类：计算机视觉 | 机器学习

2022-08-10

高能量密度物理（HEDP）实验通常涉及在低密度泡沫内部传播的动态波 - 前。这种效果会影响其密度，因此影响其透明度。泡沫生产中的一个常见问题是产生有缺陷的泡沫。需要有关其尺寸和同质性的准确信息来对泡沫的质量进行分类。因此，这些参数使用3D测量激光共聚焦显微镜进行表征。对于每个泡沫，拍摄五个图像：两张2D图像，代表顶部和底部泡沫平面和3D扫描的侧面横截面的三张图像。专家必须通过图像集进行手动对泡沫质量进行分类的复杂，苛刻和疲惫的工作，然后才能确定是否可以在实验中使用泡沫。目前，质量有两个二元级别的正常与缺陷。同时，通常需要专家来对正常缺陷的子类别进行分类，即有缺陷但可能需要实验的泡沫。由于不确定的判断，该子类是有问题的，这主要是直观的。在这项工作中，我们提出了一种新颖的最先进的多视图深度学习分类模型，该模型通过自动确定泡沫的质量分类并因此有助于专家来模仿物理学家的观点。我们的模型在上表面和下表面泡沫平面上达到了86 \％的精度，整个集合中达到了82 \％，这表明了该问题的有趣启发式方法。这项工作中的一个重大价值是能够回归泡沫质量而不是二进制扣除，甚至可以在视觉上解释该决定。本工作中使用的源代码以及其他相关来源可在以下网址获得：https：//github.com/scientific-computing-lab-nrcn/multi-view-foams.git

translated by 谷歌翻译

Computer vision-based analysis of buildings and built environments: A systematic review of current approaches

Małgorzata B. Starzyńska , Robin Roussel , Sam Jacoby , Ali Asadipour

分类：计算机视觉

2022-08-01

分析了2011年至2021年发表的88个来源，本文对基于计算机的建筑物和建筑环境进行了首次系统评价，以评估其对建筑和城市设计研究的价值。遵循多阶段的选择过程，讨论了有关建筑应用，例如建筑物分类，详细分类，定性环境分析，建筑条件调查和建筑价值估算等建筑应用程序的类型。这揭示了当前的研究差距和趋势，并突出了研究目标的两个主要类别。首先，要使用或优化计算机视觉方法进行体系结构图像数据，然后可以帮助自动化耗时，劳动密集型或复杂的视觉分析任务。其次，通过查找视觉，统计和定性数据之间的模式和关系来探索机器学习方法的方法论上的好处，以研究有关建筑环境的新问题，这可以克服传统手动分析的局限性。不断增长的研究为建筑和设计研究提供了新的方法，论文确定了未来的研究挑战和方向。

translated by 谷歌翻译

CheXplaining in Style: Counterfactual Explanations for Chest X-rays using StyleGAN

Matan Atad , Vitalii Dmytrenko , Yitong Li , Xinyue Zhang , Matthias Keicher , Jan Kirschke , Bene Wiestler , Ashkan Khakzar , Nassir Navab

分类：计算机视觉 | 机器学习

2022-07-15

医学图像分析中使用的深度学习模型很容易由于其黑盒性质而引起的可靠性问题。为了阐明这些黑盒模型，先前的作品主要集中在识别输入特征对诊断的贡献，即功能归因。在这项工作中，我们探讨了反事实解释，以确定模型依赖于诊断的模式。具体而言，我们研究了胸部X射线内变化特征对分类器输出的影响，以了解其决策机制。我们利用一种基于样式的方法（StyleEx）来通过操纵其潜在空间中的特定潜在方向来为胸部X射线射线创建反事实解释。此外，我们建议本本芬大大减少生成解释的计算时间。我们在放射科医生的帮助下临床评估反事实解释的相关性。我们的代码公开可用。

translated by 谷歌翻译

Physical Passive Patch Adversarial Attacks on Visual Odometry Systems

Yaniv Nemcovsky , Matan Yaakoby , Alex M. Bronstein , Chaim Baskin

分类：计算机视觉 | 机器学习

2022-07-11

已知深层神经网络容易受到对抗扰动的影响 - 较小的扰动会改变网络的输出并存在于严格的规范限制下。虽然通常将这种扰动讨论为针对特定输入量身定制，但可以构建通用扰动以更改模型在一组输入上的输出。普遍的扰动呈现出更现实的对抗攻击案例，因为不需要对模型的确切输入的认识。此外，通用攻击设置将泛化的主题提高到看不见的数据，在给定一组输入的情况下，通用扰动旨在改变模型在样本外数据上的输出。在这项工作中，我们研究了基于视觉探测器的自主导航系统的物理被动补丁对抗攻击。视觉轨道测定系统旨在推断两个相应的观点之间的相对摄像机运动，并经常被基于视觉的自主导航系统使用以估计其状态。对于此类导航系统，贴片对抗扰动构成了严重的安全问题，因为它可以用来误导系统到某些碰撞过程中。据我们所知，我们首次表明，通过在场景中部署补丁的对抗攻击，可以显着增加视觉探针模型的错误差。我们提供有关合成闭环无人机导航数据的评估，并证明实际数据中存在可比漏洞。在https://github.com/patchadversarialattacks/patchardversarialateacks上提供了提出方法和报告实验的参考实现。

translated by 谷歌翻译

Words are all you need? Capturing human sensory similarity with textual descriptors

Raja Marjieh , Pol van Rijn , Ilia Sucholutsky , Theodore R. Sumers , Harin Lee , Thomas L. Griffiths , Nori Jacoby

分类：自然语言处理 | 机器学习 | (统计)机器学习

2022-06-08

多模式培训的最新进展使用文本描述，可以显着增强机器对图像和视频的理解。然而，目前尚不清楚语言在多大程度上可以完全捕捉不同方式的感官体验。一种表征感官体验的良好方法取决于相似性判断，即人们认为两个截然不同的刺激是相似的程度。我们在一系列大规模的行为研究（$ n = 1,823美元的参与者）中探讨了人类相似性判断与语言之间的关系，这三种模式（图像，音频和视频）和两种类型的文本描述符：简单的文字描述符： - 文本字幕。在此过程中，我们引入了一条新型的自适应管道，用于标签挖掘，既有高效又是领域。我们表明，基于文本描述符的预测管道表现出色，我们将其与基于视觉，音频和视频处理体系结构的611基线模型进行了比较。我们进一步表明，文本描述符和模型在多种方式之间和模型之间预测人类相似性的程度各不相同。综上所述，这些研究说明了整合机器学习和认知科学方法的价值，以更好地了解人类和机器表示之间的相似性和差异。我们在https://words-are-are-all-you-need.s3.amazonaws.com/index.html上介绍了交互式可视化，以探索人类所经历的刺激和本文中报道的不同方法之间的相似性。

translated by 谷歌翻译

WavThruVec: Latent speech representation as intermediate features for neural speech synthesis

Hubert Siuzdak , Piotr Dura , Pol van Rijn , Nori Jacoby

分类：自然语言处理 | 机器学习

2022-03-31

神经文本到语音研究的最新进展是利用低级中间语音表示（例如MEL-光谱图）的两阶段管道主导的。但是，这种预定的特征从根本上受到限制，因为它们不允许通过学习隐藏表示形式来利用数据驱动方法的全部潜力。因此，已经提出了几种端到端方法。但是，这样的模型更难训练，并且需要大量具有转录的高质量录音。在这里，我们提出了WavThruvec-一种两阶段的架构，通过使用高维WAV2VEC 2.0嵌入作为中间语音表示，可以解决瓶颈。由于这些隐藏的激活提供了高级语言特征，因此它们对噪音更强大。这使我们能够利用质量较低的注释语音数据集来训练第一阶段模块。同时，由于WAV2VEC 2.0的嵌入已经进行了时间对齐，因此可以在大规模未转录的音频语料库上对第二阶段组件进行培训。这导致了对量表词的概括能力的提高，以及对看不见的说话者的更好概括。我们表明，所提出的模型不仅与最新神经模型的质量相匹配，而且还介绍了有用的属性，可以实现语音转换或零弹性合成的任务。

translated by 谷歌翻译